toxicity detection:有害内容检测;指利用人工审核或算法(常见为机器学习/自然语言处理)识别文本、语音或评论中的侮辱、仇恨、骚扰、脏话、人身攻击等可能伤害他人的内容,用于内容审核与社区治理。(在不同语境中也可泛指对“有毒/有害”行为与信息的识别。)
/tɑkˈsɪsəti dɪˈtɛkʃən/
The forum uses toxicity detection to flag rude comments.
这个论坛使用有害内容检测来标记粗鲁的评论。
Researchers evaluated a toxicity detection model to reduce harassment while minimizing false positives against dialects and minorities.
研究人员评估了一种有害内容检测模型,目标是在减少骚扰的同时,把对方言与少数群体的误判降到最低。
toxicity 源自 toxic(“有毒的”),其更早来源与希腊语 toxikon(与“箭毒/毒药”相关)有关;后引申为“有害性、毒性”(包括社会互动中的“有害”)。detection 来自拉丁语 detegere(“揭露、发现”)。合起来表示“发现并识别有害性内容/言行”。